Știri
Știri din categoria Inteligență artificială

Apple a prezentat Ferret-UI Lite, un model AI compact care poate naviga autonom în aplicații direct pe dispozitiv, fără a trimite date în cloud, potrivit lucrării publicate pe arXiv. Modelul are 3 miliarde de parametri, dar, susțin autorii, egalează sau depășește performanța unor agenți pentru interfețe grafice de până la 24 de ori mai mari.
Ferret-UI Lite este un model multimodal conceput pentru a înțelege și a interacționa cu interfețe de aplicații mobile, web și desktop. Scopul este rularea integrală pe dispozitiv, ceea ce ar permite asistenților virtuali să execute sarcini în numele utilizatorului fără ca informațiile sensibile să părăsească telefonul sau calculatorul.

Principala dificultate pentru modelele mici este interpretarea elementelor dense și de dimensiuni reduse de pe ecran. Apple a introdus o tehnică numită „decupare în faza de inferență”, care presupune două etape:
Antrenarea a fost realizată și cu ajutorul unui sistem sintetic, bazat pe patru roluri simulate – generator de sarcini, planificator, executor și critic – care reproduc interacțiuni reale, inclusiv erori precum atingeri nereușite sau ferestre pop-up neașteptate. Astfel, modelul a fost învățat să corecteze greșeli și să își continue sarcina.
Conform datelor prezentate în lucrare:
Pe ScreenSpot-Pro, modelul a depășit alți agenți de 3 miliarde de parametri cu peste 15 puncte procentuale.

Publicarea cercetării vine în contextul pregătirii unei versiuni modernizate a asistentului Siri, așteptată în primăvara lui 2026, odată cu iOS 26.4. Un model capabil să „citească” și să opereze aplicații local ar putea sta la baza unor funcții avansate, precum executarea de sarcini complexe în mai multe aplicații consecutive.
Apple subliniază avantajul confidențialității: rularea pe dispozitiv ar însemna că mesaje, date financiare sau informații medicale nu sunt transmise către servere externe.
Autorii recunosc că modelul performează mai bine în sarcini scurte și directe și întâmpină dificultăți în operațiuni complexe, cu mai mulți pași. Deocamdată, nu există confirmarea integrării Ferret-UI Lite într-un produs comercial, însă direcția cercetării indică intenția Apple de a dezvolta agenți AI eficienți și orientați spre protecția datelor.
Recomandate

Apple pregătește în iOS 27 o versiune de Siri capabilă să gestioneze mai multe cereri dintr-o singură comandă , potrivit 9to5Mac , care citează un raport al lui Mark Gurman pentru Bloomberg. Informația vizează o schimbare de funcționalitate: Siri ar urma să poată „descompune” (parse) un singur îndemn vocal în mai multe acțiuni și să le execute în paralel sau în succesiune, fără ca utilizatorul să repete comenzi separate. Exemplul dat în raport este combinarea unor solicitări precum verificarea vremii, crearea unei programări în calendar și trimiterea unui mesaj, toate în aceeași propoziție. În prezent, Siri cere de regulă comenzi individuale pentru astfel de sarcini, ceea ce, în contextul competiției din zona asistenților cu inteligență artificială, o plasează în urma rivalilor. 9to5Mac notează și că, deși Apple a îmbunătățit în iOS 18 capacitatea lui Siri de a păstra contextul între cereri consecutive, iOS 27 ar urma să aducă un „context persistent” real, nu doar pentru solicitări back-to-back. Raportul mai indică faptul că Apple lucrează la o actualizare majoră a lui Siri, descrisă ca fiind „alimentată de Gemini” (o familie de modele de inteligență artificială), ceea ce ar putea schimba comportamentul asistentului spre unul mai apropiat de un chatbot modern și ar putea include inclusiv o aplicație separată pentru Siri. Apple ar urma să prezinte pentru prima dată iOS 27 pe 8 iunie 2026, la deschiderea WWDC 2026, conform informațiilor din articol. Dacă aceste schimbări se confirmă, miza pentru Apple este să recupereze decalajul față de asistenții care pot gestiona sarcini compuse și conversații mai lungi, fără fragmentarea interacțiunii în comenzi scurte și repetate. [...]

Apple pregătește în iOS 27 un sistem care va permite mai multor aplicații de chat cu inteligență artificială să se integreze cu Siri , relatează Bloomberg prin vocea lui Mark Gurman. Schimbarea ar extinde modelul introdus în 2024, când Siri a primit integrare cu ChatGPT odată cu iOS 18. Potrivit materialului, Apple a spus anterior că vrea să aducă și alți furnizori, precum Google Gemini, însă planul nu s-a concretizat atunci. În paralel, compania ar fi ajuns la un acord cu Google pentru folosirea modelului de inteligență artificială Gemini în funcții încă nelansate ale Siri și Apple Intelligence, inclusiv pentru „inteligență personală” și control în aplicații. Gurman susține că Apple ar renunța la abordarea bazată pe acorduri separate cu fiecare furnizor și ar introduce, în schimb, un „sistem de extensii” pentru Siri, prin care chatbot-urile din aplicații să poată funcționa împreună cu asistentul. Ca exemplu, este menționată aplicația Claude a companiei Anthropic, care ar urma să poată colabora cu Siri. În același timp, textul precizează că acest lucru nu ar afecta parteneriatul Apple–Google, Gemini urmând să rămână folosit pentru Apple Intelligence și anumite funcții Siri. Noul sistem ar urma să fie disponibil pe mai multe platforme, conform informațiilor din versiunile de test ale sistemelor de operare: iOS 27 iPadOS 27 macOS 27 În mesajele din versiunile beta, funcția este descrisă ca permițând „agenților” (adică module software din aplicațiile instalate) să lucreze cu Siri, cu aplicația Siri și cu alte funcții ale dispozitivului. Utilizatorii ar urma să poată adăuga servicii suplimentare de inteligență artificială dintr-un meniu nou, care trimite către o zonă dedicată din magazinul de aplicații. Integrarea nu ar fi automată: aplicațiile de chat cu inteligență artificială vor trebui actualizate pentru a folosi noile capabilități din iOS 27. Separat, începând cu iOS 26.4, lansat în această săptămână, aplicațiile de acest tip ar urma să poată funcționa pentru prima dată și cu CarPlay, tot cu condiția ca dezvoltatorii să actualizeze aplicațiile. În plus, Gurman mai afirmă că Apple intenționează să facă Siri mai apropiat ca funcționalitate de aplicațiile de chat cu inteligență artificială în iOS 27 și că testează chiar o aplicație Siri separată, care ar urma să suporte același sistem de extensii. [...]

Xiaomi spune că modelul său MiMo-V2-Pro a intrat în top 5 global în clasamentul Text Arena, potrivit ITHome , care citează o postare a fondatorului, președintelui și CEO-ului companiei, Lei Jun. Conform informațiilor prezentate, MiMo-V2-Pro a urcat în primele cinci modele la nivel mondial în dimensiunea „Model Rank” din Text Arena, pe baza performanțelor raportate la raționament logic complex, respectarea instrucțiunilor lungi și stabilitatea în dialoguri cu mai multe runde. Lei Jun afirmă că modelul Xiaomi este „doar în urma” Anthropic, OpenAI și Google în această evaluare. În același set de clasamente, Xiaomi apare și la nivel de „LabRank” (indicator care ar măsura capacitatea de cercetare și dezvoltare a laboratorului): Text Arena (ArenaExpert) plasează Xiaomi pe locul 4 la nivel global, iar Code Arena pe locul 5, mai notează publicația chineză. Lei Jun a descris și mecanismul de evaluare al Text Arena, susținând că acesta folosește un sistem de „testare dublu-orb”: identitatea modelelor ar fi ascunsă, iar utilizatori reali din întreaga lume ar vota în timp real calitatea răspunsurilor. Scopul ar fi reducerea practicilor de optimizare pentru seturi de date fixe („urcarea în clasament” prin antrenare țintită pe benchmark-uri). Potrivit Xiaomi MiMo, de la lansarea globală a seriei Xiaomi MiMo-V2, pe 19 martie 2026, modelele MiMo-V2-Pro și MiMo-V2-Omni au atras interes din partea dezvoltatorilor, iar varianta Pro ar fi ajuns pe primul loc în clasamentele zilnice, săptămânale și de tendință ale OpenRouter după volumul de apeluri. Pe scurt, informațiile anunțate de Xiaomi indică următoarele poziționări și repere: MiMo-V2-Pro: top 5 global în „Model Rank” pe Text Arena, pe criterii precum raționament logic, instrucțiuni lungi și dialog multi-rundă Xiaomi: locul 4 global în „LabRank” pe Text Arena (ArenaExpert) Xiaomi: locul 5 global în „LabRank” pe Code Arena MiMo-V2-Pro: locul 1 în OpenRouter la volum de utilizare, în clasamentele zilnic, săptămânal și de tendință (conform Xiaomi MiMo) Promoția „XiaomiMiMo” cu acces gratuit în prima perioadă ar fi fost extinsă până la 2 aprilie 2026, ora 24:00 (ora Beijingului), potrivit unei informări anterioare citate de IT之家 Pentru piață, astfel de rezultate contează în măsura în care clasamentele de tip „arena” sunt folosite ca semnal rapid al calității percepute de utilizatori, iar poziționarea în topuri poate influența adopția în rândul dezvoltatorilor și integrarea în platforme de acces la modele. În același timp, detaliile despre metodologie și replicabilitate rămân esențiale atunci când companiile își compară public performanțele. [...]

Jay Collins, un bancher de la Citi, avertizează că ascensiunea inteligenței artificiale (AI) și a roboticii ar putea duce la un „sfârșit tragic” pentru capitalism , potrivit HotNews.ro . Collins, președinte al Citigroup pentru sectorul public, a subliniat că aceste tehnologii reprezintă provocări majore pentru capitalism, care trebuie abordate de liderii politici și de afaceri. Collins susține că pentru a integra AI și robotica în societate, capitalismul trebuie ajustat și remodelat, similar cu transformările din timpul Revoluției Industriale. El avertizează că, fără aceste schimbări, capitalismul ar putea deveni un regim autoritar. Impactul asupra forței de muncă Bancherul explică faptul că AI și robotica vor afecta în primul rând locurile de muncă cognitive, începând cu cele de birou. Domenii precum software-ul, finanțele, media și consultanța sunt expuse riscului, iar clasa de mijloc ar putea fi afectată semnificativ. Collins atrage atenția asupra unei economii de tip „K”, în care inegalitatea între cei bogați și cei săraci se adâncește. În SUA, doar 10% din populație deține o avere netă considerabilă, în timp ce clasa de mijloc stagnează, neavând acces la active de capital. Collins avertizează că acest dezechilibru va crește odată cu avansul AI. Faze ale dezvoltării AI Collins identifică patru faze ale dezvoltării AI. Prima fază este cea a inteligenței artificiale generative, urmată de faza agentică, în care AI poate realiza sarcini autonom. A treia fază implică AI „fizică”, integrată în roboți, iar ultima fază, cea mai provocatoare pentru capitalism, este Inteligența Artificială Generală (AGI). „Gândiți-vă la ea ca trecând de la analiză și cercetare la acțiune. Un agent poate acționa”, subliniază Collins. Provocări și soluții Collins estimează că următorul val major de perturbări pe piața muncii va avea loc până la sfârșitul acestui deceniu. El subliniază că integrarea AI și roboticii în producție va afecta locurile de muncă fizice și că liderii din tehnologie ar prefera să încetinească acest proces, dar sunt constrânși de competiția geostrategică, în special cu China. Ca soluție, Collins propune un „dividend de productivitate”, care ar putea începe cu sume mici și ajustate treptat. Acesta ar putea fi finanțat prin impozitarea roboților, AI, activelor și miliardarilor, sau printr-o reproiectare a sistemului de protecție socială. Collins subliniază necesitatea unor experimente agresive pentru a găsi soluții viabile, avertizând că fără un răspuns adecvat, capitalismul și democrația ar putea suferi consecințe grave. [...]

Wikipedia a interzis folosirea inteligenței artificiale pentru generarea sau rescrierea conținutului în enciclopedia sa online, potrivit The Guardian . Decizia vizează în special utilizarea modelelor lingvistice de mari dimensiuni (LLM, sisteme de tip ChatGPT) și se aplică versiunii în limba engleză, care are peste 7,1 milioane de articole. Schimbarea de politică vine după dezbateri în comunitatea de editori voluntari, unde subiectul folosirii AI a fost disputat. Publicația notează că un vot al editorilor a susținut interdicția, conform 404 Media . Wikipedia motivează măsura prin faptul că utilizarea LLM „încalcă adesea” principiile de bază ale proiectului. Totuși, politica introduce două excepții: AI poate fi folosită pentru traduceri și pentru corecturi minore de stil, cu condiția ca un om să verifice rezultatul și ca instrumentul să nu adauge informații noi. „Editorilor li se permite să folosească LLM-uri pentru a sugera corecturi de bază ale propriilor texte și să includă unele dintre ele după o revizuire umană, cu condiția ca LLM-ul să nu introducă conținut propriu”, se arată în noua politică. În același document, Wikipedia avertizează că astfel de modele pot modifica sensul unui text dincolo de cerința inițială și pot ajunge la formulări care nu sunt susținute de sursele citate. Contextul mai larg este creșterea utilizării instrumentelor de AI pentru informare, The Guardian menționând că ChatGPT ar fi depășit Wikipedia la numărul de vizite lunare anul trecut. Articolul amintește și poziții anterioare ale lui Jimmy Wales, fondatorul Wikipedia, care a descris rezultatele înșelătoare sau „halucinate” ale AI drept „un dezastru” și a spus că, deși AI ar putea ajuta în anumite zone, nu ar trebui folosită pentru redactarea articolelor „cel puțin deocamdată”. [...]

Google a anunțat Gemma 4, o nouă familie de modele AI open-source cu licență Apache 2.0 , potrivit Neowin . Compania spune că modelele sunt construite pe aceeași bază de cercetare ca Gemini 3 (modelele proprietare ale Google), dar, spre deosebire de acestea, Gemma 4 este publicat ca software cu cod sursă deschis și poate fi folosit comercial fără restricții, printr-o licență permisivă. Un element central al generației Gemma 4 este orientarea către „fluxuri de lucru agentice” (agentic workflows), adică scenarii în care un model poate acționa ca un „agent” care execută sarcini și interacționează cu servicii externe. Toate modelele Gemma 4 includ suport nativ pentru apelarea de funcții (function calling), ieșire JSON structurată și instrucțiuni de sistem, ceea ce ar permite dezvoltatorilor să construiască agenți autonomi care rulează local și pot apela API-uri externe. Google își susține poziționarea și cu rezultate din clasamente publice. Conform Google , varianta Gemma 4 „31B Dense” este pe locul 3 între modelele deschise în clasamentul Arena AI, iar modelul „26B” este pe locul 6, compania afirmând că acesta din urmă depășește competitori de până la 20 de ori mai mari ca dimensiune. Tot Google precizează că „greutățile” necuantizate (parametrii modelului, păstrați la precizie mai mare) pentru 26B și 31B încap pe un singur GPU NVIDIA H100 de 80 GB. Pentru dezvoltare locală, articolul notează și existența unui model 26B de tip „Mixture of Experts” (MoE), optimizat pentru latență. În acest tip de arhitectură, nu toți parametrii sunt folosiți la fiecare răspuns; în cazul de față, sunt activați 3,8 miliarde de parametri în timpul inferenței, ceea ce ar crește viteza de generare a tokenilor și ar ajuta la rularea unor asistenți de programare pe plăci grafice de consum. Pe partea de capabilități, Google pune accent și pe multimodalitate: familia Gemma 4 poate procesa nativ imagini și video la rezoluție înaltă, iar modelele „E2B” și „E4B” pentru dispozitive de tip edge (rulare aproape de utilizator, pe hardware local) adaugă intrare audio pentru recunoaștere vocală cu latență foarte mică. În plus, aceste modele vin cu o „fereastră de context” (context window) de 128.000 de tokeni pentru edge și până la 256.000 pentru variantele 26B/31B, adică pot păstra mai multă informație relevantă în aceeași sesiune. Din perspectiva pieței, Google își diferențiază Gemma 4 de iterațiile anterioare, care aveau termeni de utilizare mai restrictivi și erau contestate ca „open-source” în sens strict. Neowin consemnează că, prin licența Apache 2.0 fără limitări comerciale, Google intră mai direct în competiție cu modelele Llama ale Meta, care folosesc, de asemenea, o licențiere de tip Apache. În zona de distribuție și integrare, Gemma 4 este deja compatibil cu platforme precum Hugging Face, Ollama și vLLM și beneficiază de optimizări hardware de la NVIDIA, AMD, Qualcomm și MediaTek. Pentru dezvoltatorii de aplicații mobile, modelele pot fi testate în AICore Developer Preview, Google indicând și compatibilitate viitoare cu Gemini Nano 4. Principalele noutăți menționate pentru Gemma 4: licență Apache 2.0 permisivă, cu utilizare comercială fără restricții; suport nativ pentru function calling, JSON structurat și instrucțiuni de sistem (orientare către agenți AI); modele 26B/31B care, potrivit Google, încap ca „greutăți” necuantizate pe un GPU NVIDIA H100 de 80 GB; variantă 26B MoE optimizată pentru latență, cu 3,8 miliarde de parametri activați la inferență; multimodalitate (imagini/video), plus intrare audio pe modelele edge E2B/E4B; ferestre de context de 128K tokeni (edge) și până la 256K (26B/31B). [...]